|
Viele Anwendungsgebiete in der maschinellen Sprachverarbeitung
erfordern umfangreiche, syntaktisch annotierte Ressourcen, so
genannte Baumbanken. Eine wichtige Anwendung ist die Verbesserung
von statistischen Verfahren für die Disambiguierung mehrdeutiger
Sätze, die auf Baumbanken trainiert werden. Die verfügbaren
Baumbanken für die deutsche Sprache sind für die Anforderungen
jedoch zu klein. So entstand die Motivation, einen Editor zu
erstellen, mit dem die Annotation von Sätzen effizient unterstützt
wird, um Baumbanken zu erstellen und zu erweitern.
Das Werkzeug, der PepTreeEditor, basiert auf Satzanalysen des
PEP-Parsers. Mit dem PepTreeEditor kann der Annotierer die korrekt
geparsten Strukturen auswählen und falsche gegebenenfalls ändern.
Ihm stehen Aktionen zur Verfügung, mit denen er neue Knoten
erstellen und so Teilbäume verknüpfen kann, um den Gesamtbaum
aufzubauen. Der Evaluierung kann man entnehmen, dass dies bei
partiellen, aber richtigen Analysen meist relativ schnell erfolgt,
während die Verknüpfung und das Löschen bei falschen Analysen
mehr Zeit vereinnahmt. Die schnellste Methode, die Satzstruktur zu
ändern, ist die Auswahl einer Alternative mit Hilfe der
Oder-Knoten. Aber auch die Knoteninhalte, unter anderem die
morphosyntaktischen Merkmale, können mit dem PepTreeEditor
angepasst werden.
Für die Abspeicherung stehen diverse Formate bereit. Zum Einen kann
die Struktur als "finished Tree", "unfinished
Tree" oder aber einfach nur unter einem anderen Dateiformat
gespeichert werden. Zum anderen ist eine Umwandlung ins
PepTigerFormat möglich, das bis auf wenige Ausnahmen dem
Tigerformat entspricht, mit anschließender Speicherung als
Textdatei. So ist eine Aufnahme in das TIGER Corpus möglich, das
einhergeht mit der Verwendbarkeit aller dazugehörigen Werkzeuge.
|